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新 模糊 聚 类 有 效 性 指标 
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摘 要 : 模糊 聚 类 是 模式 识别 、 机 器 学 习 和 图 像 处 理 等 领域 的 重要 研究 内 容 。 模 糊 C- 均 值 聚 类 算法 是 最 常用 的 模糊 聚 
类 实现 算法 ， 该 算法 需要 预先 给 定 聚 类 数 才 能 对 数据 集 进行 聚 类 。 提 出 了 一 种 新 的 聚 类 有 效 性 指标 ， 对 聚 类 结果 进行 
有 效 性 验证 。 该 指标 从 划分 、 隶 属 度 、 几 何 结构 角度 ， 定 义 了 紧凑 度 、 分 离 度 、 重 登 度 三 个 重要 特征 测量 。 在 此 基 
础 上 ， 提 出 了 一 种 最 佳 聚 类 数 确定 方法 。 将 新 聚 类 有 效 性 指标 和 传统 有 效 性 指标 在 6 个 人 工 数据 集 和 3 个 真实 数据 集 
进行 实验 验证 。 实 验 结果 表明 ， 所 提出 的 指标 和 方法 能 够 有 效 地 对 聚 类 结果 进行 评估 ， 适 合 确定 样本 的 最 佳 聚 类 数 。 
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New fuzzy clustering validity index 


Geng Jiayi, Qian Xuezhong, Zhou Shibing 
(Shool of Internet of Things Engineering, Jianenan University, Wuxi Jiangsu 214122) 


Abstract: Fuzzy clustering is an important research content in the fields of pattern recognition, machine learning and image 
processing. Fuzzy C-means clustering algorithm is the most commonly used fuzzy clustering algorithm. The algorithm needs to 
preset the number of clusters in order to cluster the data set. This paper propose a new clustering validity index to validate the 
clustering results. This index defines the three important features of compactness, resolution and overlap degree from the 
perspective of partition entropy, membership degree and geometric structure. On this basis, this paper propose a method of 
determining the optimal clustering number. This paper validate the new clustering validity index and the traditional effectiveness 
index in six artificial data sets and three real data sets. The experimental results show that the proposed indexes and methods 
can effectively evaluate the clustering results and are suitable for determining the optimal clustering number of the samples. 


Key Words: fuzzy C-means clustering; number of clusters; clustering validity index; fuzzy clustering 


0 引言 选择 合适 的 聚 类 有 效 性 指标 是 研究 聚 类 有 效 性 的 重要 步 又 
IO0。 目前 已 经 存在 了 许多 聚 类 有 效 性 指标 , 但 是 由 于 数据 集 
聚 类 是 将 没有 先 验 知识 的 样本 ， 按 照 特 定 的 规则 ， 将 相似 ”的 结构 多 种 多 样 , 没 有 一 个 聚 类 指标 适用 于 任何 类 型 的 数据 集 ， 
的 样本 归 为 一 类 , 不 相似 的 样本 分 到 不 同 的 类 中 人。 聚 类 分 。 没有 一 种 指标 的 表现 总 优 于 其 他 指标 中 WI。 比如 村 尚 哲 等 在 
为 两 大 方向 ， 传 统 聚 类 和 模糊 聚 类 。 传 统 聚 类 为 硬 划分 ， 每 个 文献 由 480 中 ,列举 了 近年 来 一 些 常 用 的 聚 类 有 效 性 指标 ， 包 含 
样本 必须 清晰 的 划分 到 不 同 的 子 类 中 ， 只 有 属于 和 不 属于 两 种 。 基于 隶属 度 的 聚 类 有 效 性 指标 、 基 于 类 内 紧 臻 度 和 类 间 离 散 度 
情况 。 但 是 现实 中 的 大 部 分 数据 都 具有 不 确定 性 ， 一 个 样本 数 。” ”的 聚 类 有 效 性 指标 、 基 于 米 和 数据 结构 的 聚 类 有 效 性 指标 等 ， 
据 可 能 在 不 同 程度 上 属于 多 个 类 人 D3 由。 因此, Ruspinit0G)0 引 ”这 些 指标 只 能 在 特定 的 数据 集 上 发 挥 自己 的 优势 ， 并 不 能 运 | 
入 了 模糊 划分 的 概念 ， 从 而 出 现 了 模糊 聚 类 。 相 应 地 隶属 度 范 。 在 所 有 数据 集 上 。 本 文 针对 现 有 模糊 聚 类 有 效 性 指标 的 不 足 ， 
也 从 二 值 逻辑 {0,1} 扩 展 到 [0,1]。 模 糊 聚 类 相 比 传统 聚 类 , 更 。 提出 新 的 聚 类 有 效 性 指标 。 该 指标 结合 数据 集 的 划分 炉 、 素 属 
能 反映 出 真实 的 世界 。 实 现 模 糊 聚 类 最 常用 的 算法 为 度 以 及 数据 结构 ， 定 义 了 紧凑 度 、 分 离 度 、 重 谷 度 ， 能 够 克服 
Dunnt0t0 提 出 的 模糊 C- 均 值 算法 (fuzzy C-Means，FCM) 。 ”噪声 和 重印 的 影响 ， 准 确 地 找到 最 佳 聚 类 数 。 实 验 结 果 表 明 ， 
该 算法 通过 迭代， 使 目标 函数 最 小 化 。FCM 算法 设计 简单 、 解 ” 新 指标 在 人 工 数据 集 和 真实 数据 集 上 均 取得 了 良好 的 效果 。 
决 问题 的 范围 广 。 但 是 FCM 算法 需要 通过 聚 类 有 效 性 验证 ， 
以 确定 最 佳 聚 类 数 和 判断 分 类 结果 的 好 坏 tG)01。 
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1 ”相关 工作 


1.1 FCM 算法 
FCM 算法 是 基于 目标 函数 的 模糊 C 划分 ， 通 过 优化 目标 


k 
Vurc=1- (1-Vec) 5) 


指标 对 划分 系数 PC 存在 的 单调 递减 趋势 问题 进行 了 优化 ， 
但 是 对 于 PC 指标 其 他 方面 地 缺陷 并 没 


函数 得 到 均匀 的 c 个 模糊 集 !04204。 目 标 函 数 是 由 隶属 度 、 样 
本 到 聚 类 中 心 的 偏差 ， 两 者 结合 构成 。 通 过 迭代 ， 最 小 化 目标 
函数 ， 当 迭代 次 数 超过 规定 的 数值 或 目标 函数 差 值 小 于 阔 值 时 


终止 。FCM 需要 事先 初始 化 聚 类 原型 和 给 定 聚 类 数 。 
假设 数据 集 有 n 个 样本 ， 每 个 样本 为 D 维 
X={Xx,x2,.…X,},X ER?。 目 标 函 数 为 
Ji (U,V,X)= 六 yuslx vi (1) 


i=1 k=1 


隶属 度 窍 阵 约束 条 件 : 


0<u;<1,1<i<c,l<<j<n 


n 
0< Du nl<i<ce 
和 Fl 


其 中 : c 表示 聚 类 数 ;， m 表示 模糊 程度 ， 范 围 [1,c]; U 为 cxN 
和 矩阵， 表示 样本 属于 模糊 子 集 的 隶属 程度 ; V 为 cgp 矩阵 ， 表 
示 聚 类 原型 。FCM 算法 通过 不 断 迭 代 更 新 聚 类 原型 y 和 U， 
从 而 最 小 化 目标 函数 。 更 新 公式 为 : 
Vi=E ,1<i<c (2) 
Ou 
ui = el ,1eiecleken (3) 
Dk vil™ 


FCM 算法 步骤 如 下 : 

a) 给 定 参 数 C、 模 糊 程度 m、 最 大 人 锡 代 次 数 和 和 迭代 终止 条 
件 。 

b) 初 始 化 聚 类 原型 ， 并 更 新 模糊 隶属 矩阵 U。 

9) 更 新 模糊 聚 类 原型 矩阵 V。 

dd) 如 果 大 于 迭代 次 数 或 目标 函 
否则 转 到 步 又 b。 
1.2 传统 聚 类 有 效 性 指标 

1) PC 


数 差 值 小 于 阔 值 ， 则 停止 ， 


= (0 

划分 系数 PC 形式 简单 ， 易 于 计算 ， 但 是 仅 考 虑 了 每 个 集 
群 的 紧凑 度 ， 并 且 与 数据 的 几何 结构 缺乏 直接 的 联系 。 随 着 聚 
类 数 的 变化 ， 呈 现 单 调 趋势 。 这 些 不 足 直接 导致 指标 无 法 验证 


具有 大 量 小 艇 的 分 区 和 复杂 数据 集 。 
2) MPCIDD DO 


进行 改进 。 指 标 在 人 
工 数据 集 上 的 效果 不 理想 。 


3) PE 
m= ulogus 6) 

n j= 1 i=1 
划分 PE 指标 简单 ,运算 量 小 。 同 样 存 在 以 下 问题 : 只 考 


虑 了 每 个 集群 的 紧凑 度 ; 与 数据 集 的 几何 结构 缺乏 联系 ;存在 


单调 趋势 。 指 标 仅 在 分 离 较 好 的 数据 集 上 ， 表 现 良好 ， 在 噪声 
和 重 县 数据 集 上 表现 不 佳 。 
用 XBIGDBI 
_ 2 Iv; -x 省 0) 
nminllv-vil| 
指标 将 数据 的 隶属 度 和 几何 结构 考虑 在 内 ， 紧 致 度 为 所 有 


样本 数据 到 聚 类 中 心 距离 的 和 ， 分 离 度 为 类 中 心 之 间距 离 的 最 
小 值 。 该 指标 存在 两 个 缺点 : 当 cn 时 ，XB 指标 变 为 0; 当 
m~~co 时 ，XB 一 < 。 在 上 述 两 种 情况 下 ， 指 标 失 去 稳定 性 ， 无 
法 判断 最 佳 聚 类 数 。 


5) UV 生生 由 由 


-1 uiepc l) 9 


le -2- 1e 
= 0 
该 指标 引入 指数 函数 测量 数据 与 中 心 的 距离 ， 相 比 于 欧 氏 
距离 ， 在 一 定 程度 上 能 够 克服 噪声 对 数据 的 影响 ， 但 是 由 于 指 
标 只 考虑 了 集群 的 紧凑 度 和 分 离 度 ， 没 有 考虑 重 蕾 度 对 分 类 的 
重大 影响 ， 所 以 在 重 盖 数据 集 上 效果 不 是 很 理想 。 
6) FM 


Var=oxC ED Pluogus )]) (9) 


D i=l j=1 


> 1/c) "lx; -vi 


ET 
该 指标 将 划分 炉 和 模糊 划分 因子 这 两 个 重要 评价 指标 考虑 
在 内 ， 定 义 了 聚 类 的 紧 致 性 和 分 离 性 。 由 于 该 指标 采用 相距 最 
近 两 个 类 中 心 之 间 的 距离 作为 的 分 离 度 ， 此 类 情况 在 噪声 数据 
关上 的 表现 不 佳 。 


2 新 聚 类 有 效 性 指标 
[ 接 影响 着 最 终 聚 类 结果 的 质量 


聚 类 有 效 性 指标 的 好 坏 , 直 
新 聚 类 有 效 性 指标 是 由 紧凑 度 、 重 登 度 和 分 离 度 三 者 共同 构成 。 


0Qf 二 


nl 


紧凑 度 由 类 内 距离 表示 ， 分 离 度 由 最 小 隶属 度 表 示 ， 重 县 度 
隶属 度 和 划分 炉 相 结 合 表示 。 好 的 聚 类 对 应 较 小 的 紧凑 度 、 重 
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车 度 ， 较 大 的 分 离 度 。 该 指标 充分 考虑 了 数据 集 的 整体 信息 ， 
能 够 准确 地 判断 出 数据 集 的 最 佳 聚 类 数 。 


紧凑 度 
定义 1 
均 距 离 ， 即 


C 


其 中 ， X 表示 第 i 类 的 第 k 个 样 


定义 vs(c,UD) 为 第 i 类 所 有 样本 到 第 i 类 中 


心 的 平 


n(iD) 


vs(c， w= > ev 


i=1 k=l 


(10) 
n() 


fF 本 ， Vy; 表示 第 i 类 的 聚 类 中 


心 ，n(1) 表示 第 个 聚 类 的 样本 数目 。 
定义 2 定义 vd(cU) 为 第 i 类 所 有 样 


本 两 两 之 间 的 平均 距 


2.2 分离 度 


本 属于 第 i 类 和 第 j 类 之 间 最 


定义 4 定义 Ss; 为 第 k 个 样 


小 的 隶属 度 ， 即 : 


Ss=min (Wid)k=1,2,..n (13) 


定义 5 定义 总 体 离散 度 Sep(c,U) 为 S; 总 和 的 相反 数 , 即 


(14) 


Sep(c,U)= 1 ys,) 


ji=1 j=i+l 了 D k=1 


间 的 分 离 程度 。 大 部 分 指标 的 


分 离 度 表示 两 个 模糊 集群 2 


离 ， 即 


c_nO) 


vd(CCUD=》 >》 一 


xx-xsll 


(11) 


记 1 kh CGO)” -nGD))/2 


eo tt ten nla 


定义 3 类 内 紧凑 度 Var(c,U) 为 前 
a en 


1 两 者 相 加 (样本 与 
F 均 值 》 的 和 ， 即 : 


Var(c,U)=vs(c,U)*vd(c,U) 


c¢ nO c nn) 


= pl *》》， 


[kx 


(12) 


i nO 


紧凑 度 表示 类 内 样 


i=1 kh nD) -nO)Y 2 
本 的 集中 程度 。 为 了 解释 相关 概念 ， 结 


合 示意 图 进行 说 明 。 图 1 表示 第 i 类 的 所 


样本 点 到 该 类 聚 类 


中 心 的 距离 ， 值 越 小 ， 说 明 类 内 样本 距离 类 中 心 越 近 ， 表 明了 


类 内 样本 与 类 中 心 的 结构 关系 ; 


图 2 表示 的 第 i 类 所 有 样本 数 


据 ， 两 两 之 间 的 距离 ， 值 越 小 ， 说 明 类 中 的 数据 越 紧 ， 表 明了 


类 内 样本 数据 的 整体 结构 信息 。 


类 内 紧凑 度 将 两 者 结 


合 起 来 ， 


共同 发 挥 各 自 的 优势 。 显 然 Var(e,U) 的 最 小 值 ， 表 明 类 内 的 数 
据点 彼此 接近 ， 具 有 较 高 的 紧凑 度 。 
. Ce 


图 3 


三 个 类 分 布 示意 图 


图 1 类 内 样本 与 中 心 距离 图 2 类 内 样本 之 间距 离 


分 离 度 通过 计算 类 中 心 之 间 
j 且 对 于 噪声 


布 的 整体 形状 ,i 


的 距离 ， 而 类 


比如 在 图 3 中 ， 两 个 类 之 
同 。AB 与 AC 类 中 心 的 距 


此 处 新 指标 借鉴 Chen 等 i011 


离 相等 ， 


中 心 无 法 反映 样本 分 
声 数 据 使 用 距离 判断 会 出 现 偏差 。 
间 县 有 相同 的 距离 ， 
但 是 明显 AB 比 AC 分 离 。 


分 离 性 也 可 以 不 


生母 提出 的 分 离 


离 度 , 通过 一 个 样本 


数据 相对 两 个 类 的 模糊 隶属 度 最 小 值 作为 分 离 度量 ， 第 k 个 样 
本 越 接近 于 一 个 类 的 距离 中 心 ， 则 相对 该 类 的 隶属 度 越 接近 于 
1， 另 一 个 类 越 接近 于 0， 相 应 地 定义 4 的 值 也 越 接近 于 0。 此 


时 类 间 模 糊 性 也 越 小 ， 类 间 越 分 离 。 总 体 离散 度 是 将 定义 4 的 
值 求 和 ， 并 取 反 求 得 ， 值 越 大 ， 表 示 数 据点 相对 于 类 的 模糊 程 


度 越 低 ， 越 能 够 清晰 地 划分 到 集群 中 ， 
2.3 ”重生 度 


分 离 越 好 。 


定义 6 定义 Ci; 为 第 k 个 样本 属于 第 i 类 和 第 j 类 之 间 隶 


属 度 的 乘积 ， 即 


CY ul2.n (15) 


ot 
< 
证: 
位 


EE 县 度 Co 


p(c,U) 为 Ci 的 总 和 与 炉 的 结 


cl ce 
Cop(G= LY Y Cf,) (16) 


1 ji+l 


f(x 丑 > Ux *logui 


i=1 k=1 


重合 度 用 于 衡量 界限 不 明确 的 两 个 类 之 间 的 重合 程度 。 两 
个 类 之 间 的 重 倒 度 定 义 为 隶属 度 平方 的 乘积 ， 当 两 个 类 别 之 间 


划分 较 清 晰 ， 素 属 度 之 间 相 差 越 大 ， 乘 积 的 值 越 小 ， 类 划分 时 
越 明 确 ， 聚 类 结果 越 清 晰 。 第 K 个 样本 相对 于 每 类 样本 的 隶属 


度 都 为 /c， 此 时 重 靶 度 的 值 达到 最 大 。 这 里 与 粹 结合 起 来 ， 可 
较 好 地 反映 出 划分 结果 的 模糊 程度 和 不 确定 性 度 ， 值 越 小 ， 它 
的 不 确 性 程度 越 小 ， 需 要 的 信息 量 越 小 ， 则 分 类 效果 越 可 靠 ， 
此 处 作为 权重 评价 指标 。 显 然 总 体重 又 度 的 值 越 小 ， 说 明 两 个 
类 之 间 划 分 越 清 晰 ， 重 县 越 小 。 

2.4 归 一 化 

由 于 紧 致 度 、 


不 同 的 量 纲 ， 故 需 做 归 


法 
| 
[ll 
Jy 
mh 
te 
交 


分 离 度 
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化 处 理 ， 将 各 个 聚 类 数 对 应 地 的 指标 值 ， 除 以 最 大 的 指标 值 ， DS4 数据 集 类 与 类 之 间 分 离 明确 ; DS2 和 DS5 数据 集 有 150 个 
此 时 各 度量 范围 变 为 [0,1]， 其 结果 可 表示 为 噪声 污染 数据 ;DS3 数据 集中 ， 三 类 样本 数据 彼此 之 间 存 在 较 
1 重 又 类 公 询 访 好 ， » 3 
Var" (c= EU) Var =max(VarcU)) 17) 大 的 重 芭 ， 另 1 类 分 离 较 好 ; DS6 数据 集中 ， 五 类 样本 数据 彼 
Varnas 8 此 之 间 都 存在 一 定 的 重叠 。 
人 十 半 握 侍 所 短信 位 自 个 有 效 性 指标 ] 
Sep"(e,U)= Sep(c,U) ,Sep =max (Sep(c,U)) 18) 表 1 为 人 工 数据 集 的 具体 数值 信息 和 各 个 有 效 性 指标 计算 
epmax 得 到 的 最 佳 聚 类 数 ,为 了 更 直观 地 说 明 ,图 $ 详细 地 列 出 了 DS2 
汪 侍 入职 尖 淄 人 未 系 图 。 秆 分 询 2 生 半 据 集 
Cop"(c,U)= Cop(c,U) .Cop =max (Cop(e,U)) 19) 和 DS3 数据 集 的 聚 类 数 -指标 关系 图 。 针 对 分 离 较 好 的 数据 
OP max DS1 和 DS4, 所 有 指标 均 有 效 。 针 对 噪声 数据 集 : DS2 数据 集 ， 
2.5 聚 类 有 效 性 指标 PE 和 FM 得 到 的 最 佳 聚 类 数 为 2 类 ， 其 次 才 是 4，XB 则 误 判 
& 为 6 类 ， 其 余 指 标 均 上 sy 判定 为 类 ， 装 尽 ， 
W(C UVar" (cD+ op (c,U) (20) 为 6 指标 均 可 以 有 效 的 判定 为 4 类 ; DS5 数据 集 ， 仅 
Sep"(c,U) 有 MPC、W 能 正确 的 判定 为 3 类 。 针 对 重 又 数据 集 : DS3 和 


将 划分 焙 、 隶 属 度 、 几 何 结构 这 些 模糊 聚 类 中 重要 的 特征 DS6 由 于 重 闪 区 域 较 多 ， 传 统 聚 类 有 效 性 指标 失去 判别 能 力 ， 
结合 起 来 ， 共 同 构成 新 聚 类 有 效 性 指标 。 从 紧凑 度 角度 出 发 ， 仅 有 W 指标 能 够 正确 地 判断 这 两 个 数据 集 的 最 佳 聚 类 数 为 5 
希望 Var(c,U) 巴 越 小 越 好 ， 表 示 类 内 距离 越 紧密 ; 从 分 离 度 出 “类 。 

发 ， 希 望 Sep(c,U) 岂 越 大 越 好 ， 表 示 类 间距 离 越 分 散 ; 从重 圣 
角度 出 发 ， 希 望 Cop(c,U) 趾 越 小 越 好 ， 表 示 重 县 达到 最 小 。 显 
然 ，W(c,U) 越 小 ， 表 示 数 据点 被 清晰 地 分 到 集群 中 ， 此 时 聚 类 
效果 最 好 。 最 佳 聚 类 数 与 数据 集 的 真实 结构 相符 ， 找 到 最 佳 聚 
类 数 是 聚 类 有 效 性 指标 的 首要 任务 。 该 指标 在 噪声 数据 集 、 
到 数据 集 上 ， 都 能 够 准确 地 找到 最 佳 聚 类 数 。 


3 ”确定 最 佳 聚 类 数 的 算法 


本 文 是 在 FCM 算法 和 W 聚 类 有 效 性 指标 下 ， 提 出 的 一 种 
新 的 确定 最 佳 聚 类 数 的 算法 ， 解 决 了 FCM 需要 事先 确定 最 佳 
聚 类 数 的 问题 ， 步 又 如 下 : ” 


[afl 
[wy 


(d)DS4 (oDS5 (DDS6 
a 初始化 聚 类 数 c 的 选择 范围 为 [Cmin、 Cmax]。 ee 
bjc 以 1 为 单位 递增 ， 调 用 FECM 算法， 利用 FCM 得 到 的 
mI Cs Wn 表 1 “7 种 有 效 性 指标 在 人 工 数据 集 上 的 最 佳 训 类 数 (m=2) 
吕 计 算 并 存储 聚 类 有 效 性 指标 的 值 。 人 人 
d) 如 果 c<Cmax,c=ct1， 转 到 步骤 2， 否 则 转 到 步骤 5。 数目 维 数 类 数 PC MPC PE XB UV FM VW 
6) 选 取 与 最 小 指标 值 对 应 地 。 作为 最 佳 聚 类 数 。 es 
输出 最 佳 聚 类 数 以 及 指标 值 。 SEE RE 
4 实验 结果 DS3 603 2 5 4 4 2 4 4 2 5 
DS4 600 和 2 4 4 4 4 4 4 4 4 
为 了 检验 新 聚 类 有 效 性 指标 能 否 取得 良好 效果 ， 将 新 聚 类 Ds5 390 2 3 2 3 2 2 2 2 3 
有 效 性 指标 和 已 有 的 聚 类 有 效 性 指标 PC、MPC、PE、XB、UV、 Ds6 750 2 5 2 4 2 4 4 2 5 
FM, 应 用 于 6 个 人 工 数据 集 和 3 个 真实 数据 集 ， 观 察 它 们 的 聚 
类 效果 。 聚 类 数 搜索 范围 为 [2,Cmax]，Cmax= Yn。 指标 中 涉及 “4.1.2 真实 数据 集 
的 距离 度量 均 为 欧 氏 距离 ; 参数 m 在 何 值 取得 最 佳 ， 尚 缺乏 理 真实 数据 集 来 源 于 公共 数据 库 UCI 数据 库 , 是 加 州 大 学 欧 
论 指 导 ，Pal 和 Bezdekt00(7j 提 出 m 在 [1.5，2.5] 时 FCM 聚 文 分 校 提出 的 ， 用 于 机 器 学 习 常 用 的 标准 测试 数据 库 。 
类 算法 的 结果 最 好 ,实验 首先 取 m=2 的 情况 。 并 且 在 不 同 的 模 aj)Iris 数据 集 :分 为 3 类 ,分 别 为 Iris Setosa、Iris Versicolour、 
糊 加 权 m 值 下 ， 观 察 新 聚 类 有 效 性 指标 是 否 鲁 棒 。 Iris Virginica。 在 这 个 数据 集 上 ， 有 两 类 数据 几乎 不 可 辨别 ， 另 
4.1 ”有效 性 实验 一 个 集群 分 离 较 好 。 所 以 ,最 佳 聚 类 数 判 定 为 3 类 ， 次 最 佳 为 2 
4.1.1 人 工 数 据 集 类 ,这 两 种 情况 符合 数据 集 的 结构 ,传统 指标 判定 2 类 为 最 佳 ， 


图 4 为 人 工 数据 集 分 布 结构 示意 图 。 DS1、DS2、DS3 是 高 。 新 聚 类 指标 3 类 为 最 佳 。 
斯 分 布 数据 集 ，DS4、DS5、DS6 是 均匀 分 布 数据 集 。DS1 和 b)Wdbc 数据 集 : 分 为 2 类 ， 分 别 为 Malignant、Benign。 


201805.00046v1 


Rm 


，Ghinaxiy 合 作 期 乔 


录用 稿 等 : 新 模糊 聚 类 有 次 性 指标 
特征 是 从 乳房 块 的 细 针 抽 吸 “FNA) 的 数字 化 图 像 计算 的 ， 描 
二 本 、 2.5 
述 了 图 像 中 存在 的 细胞 核 的 特征 。 核 特征 提取 用 于 乳腺 肿瘤 诊 ee 
断 。 以 上 所 有 指标 都 正确 的 判断 出 最 佳 聚 类 数 为 2。 中 Ee 
c)Seeds 数据 集 : 分 为 3 类 , 分 别 为 三 种 不 同 品种 的 小 麦 籽 | eV 
# FM 
粒 Kama、Rosa 和 Canadian。 只 有 新 聚 类 有 效 性 指标 能 正确 地 本 a - 让 
ha _ 六 
判断 出 聚 类 数 为 3 类 ， 其 余 指 标 均 误 判 为 2 类 最 佳 。 淹 | Ts 
25 RE 
w 0.5 
了 
MPC 
PE 5 
i "> 3 4 eS 6 8 9 10 11 bb 
人 聚 类 数 
时 a (a)Iris 
浸 目 
2F 
0.5 书 洗 = 
| 1.6|- 1 
0 3 4 6 7 8 9 1011 12 13 14 15 16 17 18 19 20 21 22 23 24 25 
聚 类 数 1.2|- 
划 
发 
区 
(a)DS2 | 。 
ne [ ee / 
WwW 2 
PC 
MPC 0.4 - 区 
PE | 和 
1.8 XB 
UV 
二 FM 本 0 所 5 
2 3 4 5 6 7 8 9 10 11 12 13 14 
时 1.2 = 聚 类 数 
RE (b) Seeds 
0.6|- ES 
图 6 7 种 有 效 性 指标 的 聚 类 数 -指标 关系 图 
0 s 6 7 8 9 1011 12 13 14 15 16 17 18 19 20 21 22 23 24 4.2 m 的 比较 
聚 类 数 
i m 为 模糊 加 权 指 数 ， 控 制 着 聚 类 结果 的 模糊 程度 ， 正 是 由 


于 m 的 引入 , 使 传统 聚 类 推广 到 模糊 聚 类 。m 根据 已 有 经 验 
般 选 择 范围 在 [1.5, 2.5]。 现 将 聚 类 有 效 性 指标 分 别 在 m= 1.5、 
表 2 为 真实 数据 集 的 具体 数值 信息 和 各 个 有 效 性 指标 计算 1.7、2、2.3、2.5 五 种 情况 下 ， 应 用 于 以 上 数据 集 。 实 验 结果 表 
得 到 的 最 佳 聚 类 数 , 为 了 更 直观 地 说 明 , 图 6 详细 地 列 出 了 Iris 明 ,，PC、MPC、PE、XB 和 UV， 随 着 m 的 变化 ， 聚 类 结果 发 
和 Seeds 数据 集 的 聚 类 数 -指标 关系 图 。 实 验 结果 表明 只 有 新 聚 ”生变 化 ,只 有 FM 和 W 指标 不 随 m 的 变化 而 变化 ,对 m 鲁 棒 ; 
类 有 效 性 指标 可 以 在 以 上 所 有 人 工 数 据 集 和 真实 数据 集 下 ,， 正 。 ”在 聚 类 正确 率 方面 ， 只 有 新 提出 的 W 指标 ， 正 确 率 为 100%。 
确 判 断 出 最 佳 聚 类 , 在 噪声 和 重 受 数据 都 表现 出 了 和 良好 的 效果 。 ”实验 表明 新 指标 在 不 同 的 m 下， 能 够 得 到 较 好 结果 ， 有 较 强 的 
PC、PE、MPC 指标 缺乏 跟 数据 结构 的 直接 联系 ， 因 而 得 到 的 ”可靠 性 和 和 鲁 棒 性 。 
最 佳 聚 类 有 效 性 指标 对 应 的 聚 类 个 数 与 实际 情况 不 符 。XB 指 
标 当 m 和 e 增加 到 一 定 程度 ， 失 去 可 靠 性 。UV 和 FM 只 考虑 
了 紧凑 度 和 分 离 度 ， 没 有 考虑 重 炙 度 。 新 指标 在 一 定 程度 上 弥 


图 5 7 种 有 效 性 指标 的 聚 类 数 -指标 关系 图 


表 3 W 在 不 同 模糊 加 权 指 数 下 的 最 佳 聚 类 数 


m  DSl DS2 DS3 DS4 DSS DS6 Iris Wdbc Seeds 


补 了 以 上 传统 指标 的 缺点 ， 有 具有 较 强 的 适应 性 。 1.5 3 4 5 4 3 5 3 2 3 
表 2 7 种 有 效 性 指标 在 真实 数据 集 上 的 最 佳 聚 类 数 (m=2) 和 

”样本 样本 实际 最 佳 聚 类 数 

数据 2 3 4 5 4 3 5 3 2 3 


数目 维 数 类 数 PC MPC PE XB UV FM 


Wdbc 569 32 2 2 2 2 2 2 2 


W 
Iis 150 4 3 2 2 2 2 2 2 3 2.3 3 4 5 4 3 5 3 2 3 
2 
2.5 3 4 5 4 3 5 3 2 3 
3 


Seeds 210 7 3 2 2 2 2 2 2 


表 4 PC 在 不 同 模糊 加 权 指 数 下 的 最 佳 聚 类 数 5 ”结束 语 


局 


m DS1 DS2 DS3 DS4 DS5 DS6 Iris WdbcSeeds 


ee 针对 现 有 指标 的 缺陷 , 本 文 提出 了 W 聚 类 有 效 性 指标 。 根 
查看 沥 查 侍 和 吉 守 消 汪 空难 结果 表明 已 
1.7 3 4 4 4 2 4 2 2 ， 居 在 人 工 数据 集 和 真实 数据 集 上 的 实验 结果 表明 ， W 指标 可 
0 以 在 有 噪声 和 类 间 存 在 重印 的 情况 下 作出 正确 判断 ， 并 且 与 模 
3 已 光 人 的 相关 性 性 能 稳 先 二 De 
ss 糊 加 权 指数 的 相关 性 很 小 ， 性 能 稳定 。 由 于 FCM 算法 的 处 理 
2 对 象 主要 针对 团 能 状 分 布 数据 ,对 非 团 能 状 分 布 数据 有 效 性 差 。 
在 今后 的 研究 过 程 中 ， 可 以 针对 非 团 簇 状 分 布 数据 的 有 效 性 问 
J 人 站 上 二 9 本 题 进 行 深 研究 
表 5 MPC 在 不 同 模糊 加 权 指 数 下 的 最 佳 聚 类 数 题 进 行 深入 的 研究 。 
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